Evaluating AI-Simulated Behavior 關於 AI 模擬使用者的三項研究報告

Study 1: Survey-Based, Finetuned Digital Twins
基於調查的AI模型

實驗說明:

2024年,Kim和Lee研究了AI如何解決調查研究問題,使用了GSS資料(。他們微調LLM以處理通用語言關係並理解領域特定問題、個體和時間之間的聯絡。

研究用的是“通用社會調查” (General Social Survey,簡稱 GSS)的資料。自1972年起覆蓋6.9萬成年人這是美國一項非常有名的大型長期問卷調查。比如

整套問卷有3100多個問題,涵蓋幾十年來幾十萬人。所以這個測試的意思是:

比如:

這些問題都是真實世界中人們會被問到、也會真實回答的社會類問題,所以這個測試的設計很貼近現實,也比較嚴謹。

研究測試任務:

1. 缺失資料(Missing Data)

由於調查經常被跳題或中斷,導致資料不完整,影響統計分析的準確性。研究利用回填技術(backfilling),透過已有資料推測受訪者在未回答問題上的選擇。

2. 新問題(New Questions)

研究人員還測試了模型是否能在遺漏某些問題後,預測受訪者在這些新問題上的可能回答。

研究結果

1 個體層面的預測效果(Predicting Individual-Level Responses)

這種差距說明當前模型更擅長在已知語境中工作,但可能無法應對新的問題場景。

2 總體趨勢預測能力(Predicting Population-Level Trends)

Kim 和 Lee 分析了使用AI預測群體資料趨勢的能力。

說明模型在處理歷史資料上表現優異,但預測新情境時能力仍有限。

3 子群體差異(Subgroup Variations)

模型對社會經濟地位較高(包括收入和教育)的人群以及白人群體的預測更準確。這一差異引發對模型公平性的擔憂:如果AI對邊緣群體表現不佳,可能會無意中加劇偏見。

4 上下文資料的影響(Effect of Context Size)

研究發現,在預測缺失資料時,即便刪除40%的訓練語料,模型的表現仍然很強。這表明模型在推理能力方面具備一定魯棒性,能從部分問捲回答中預測其他問題的回答,有助於減少調查流失。

Study 2: Interview-Based Digital Twins
基於訪談的AI

研究人員找了1,052名位美國成年人,和每個人都“聊了兩小時”,然後讓AI“扮演他們”,去回答各種問題,再和他們本人答的結果對比,看AI像不像他們。

實驗過程

1. 先做AI訪談

每個參與者都進行了一次長達兩小時的AI引導訪談,內容可能包括他們的性格、看法、經歷、喜好等。

2. 用訪談內容訓練AI模型

研究人員把這些談話記錄餵給AI模型,讓它學會“模仿這個人”——也就是說,AI接下來要假裝是這個人,去參加一些測試。

3 為了驗證AI能不能代表這個人,他們讓AI和真人都做了以下三類任務:

1. 回答問卷(例如GSS題目)

比如:“你支援死刑嗎?”、“你信任政府嗎?”這類社會態度題。

2. 做人格測試(Big Five Personality Inventory)

這是一個測量“外向、宜人性、責任心、情緒穩定、開放性”五種人格維度的標準心理量表。看AI填出來的人格結果和真人是否匹配。

3. 玩經濟博弈遊戲(如獨裁者博弈、囚徒困境)

這是心理學中常用來測試“利他、自私、合作、信任”的實驗任務。

AI預測個體資料的能力(Predicting Individual-Level Data)

研究者對比了三種不同型別的AI模型:

不同模型在各項任務中的預測準確率

任務型別訪談型AI模型簡要自述模型人口統計模型
GSS問卷問題0.850.700.71
大五人格量表(Big Five)0.800.750.55
經濟行為遊戲0.660.660.66

AI預測群體水平的趨勢(Predicting Population-Level Effects)

AI模型和真人還參與了5個經典社會科學實驗,測試它們在整體資料層面的預測是否一致。

結果:

訪談如何減少偏差(Interviews Reduce Bias)

研究用了一個簡單的測量方法,叫做"人口群體偏差差值"。這個指標用來看AI模型對不同人群(比如不同種族或政治立場的人)是否有公平對待。指標數值越低,說明AI越公平,對不同群體的預測準確度越接近。

中文表格:AI模型在政治與種族偏差上的表現

偏差型別測試內容訪談型AI模型人口統計模型偏差下降幅度
政治偏差GSS問題0.0790.124下降36%
大五人格(相關性)0.0630.175下降62%
經濟遊戲0.1900.500下降62%
種族偏差GSS問題0.0200.033下降38%
大五人格(相關性)0.1100.170下降35%
經濟遊戲0.0400.043下降7%

AI模型在訪談後的偏差比只用基本人口資訊(如年齡、性別)的模型要小很多,特別是在預測政治觀點和性格特徵時。這表明透過更詳細的訪談內容,AI能更好地理解不同群體的特點,減少對社會偏見的放大。

Study 3: Synthetic Users
AI合成使用者群

來自威斯康星大學麥迪遜分校的Neeraj Arora團隊探討了大型語言模型(LLMs)如何在市場研究中應用,重點關注使用“合成使用者”進行群體預測的方式。

不再像前兩項研究那樣為每個個體定製AI模型,而是生成一大批擁有典型人口特徵的AI使用者(如年齡、性別、收入、教育等組合),來模擬整個群體。然後比較這些AI使用者的群體平均回答與真實人群的回答是否一致。

實驗過程

來自605名真實受訪者的市場調查,主題是:冷藏熱狗產品是否有吸引力。問卷內容包括:產品獨特性、喜好程度、購買意願(5分制)以及具體產品特徵評分(如健康、便利性、質量)

建立605個合成使用者,使其在人口特徵(性別、年齡、種族、城市或鄉村、教育等)上的分佈和真實受訪者匹配。

看合成使用者的群體平均回答(不是個體)與真實人群是否相似。

(How unique do you think the product is)

您認為該產品有多獨特)

實驗結果

問題(英文原文)真實使用者評分(Human Users)AI合成使用者評分(Synthetic Users)
你有多大可能會購買該產品?1.661.58
你有多喜歡該產品?1.431.40
你覺得該產品有多獨特?2.122.48

合成使用者的準確性還可以,但更適合用來預測整體趨勢

合成資料缺乏多樣性

三項研究的比較總結

限制與倫理問題(Limitations and Ethical Problems)

1. 準確性依賴多個因素:

AI模型的表現取決於使用者特徵、任務型別、模型輸入的上下文質量

對於設計團隊來說,需要識別哪些環節可以用AI模擬,哪些必須依靠真實人類

2. 提高真實感的同時,帶來新問題:

隨著AI回答越來越真實,必須反思:這些回答從哪來?是否經過使用者同意?

如果AI被用於使用者本人未授權的情境,可能導致誤解、操控或代理權被剝奪

3. AI不能替代人類:

研究明確指出:AI應該是對人類研究的補充,而非替代

即使AI能擴充套件研究範圍、填補缺失資料,它也無法真正還原人類的複雜性和不可預測性

TL;DR Summary 研究結論總結

1 AI能很好地模擬人類反應

AI能準確填補調查中缺失的答案,可以根據使用者之前的回答預測其他問題的答案,有助於解決調查中途放棄的問題。用訪談資料訓練的AI還能準確預測人們在問卷和行為遊戲中的表現。

2 基於訪談的AI模型效果更好

與只用基本使用者資訊(如年齡、性別)的模型相比,使用訪談資料的模型更準確,因為訪談提供了更詳細的使用者資訊。

3 AI模型存在偏差

AI預測的準確度會因使用者的經濟狀況、種族或政治立場而不同。研究發現AI對白人的預測更準確。使用訪談資料可能有助於減少這種偏差。

4 AI合成使用者不夠準確

AI合成使用者能反映人類行為的大致趨勢,但無法準確捕捉真實資料中的細微變化和影響強度。

5 AI模型的構建方法很重要

最有效的方法是採用簡單直接的方式,比如將大型語言模型(LLM)與豐富的訪談資料結合使用。